可选类型的注释允许通过静态打字功能来丰富动态编程语言,例如更好的集成开发环境(IDE)支持,更精确的程序分析以及与类型相关的运行时错误的早期检测和预防。基于机器学习的类型推理有望自动执行此任务的有趣结果。但是,此类系统的实际用法取决于它们在跨不同领域概括的能力,因为它们通常在训练领域之外应用。在这项工作中,我们通过进行广泛的跨域实验来研究Type4py作为最先进的基于深度学习类型推理系统的代表性的概括能力。因此,我们解决了以下问题:数据集偏移,播音外词,未知类别和稀有类。为了执行此类实验,我们使用数据集nytypes4py和crossdomaintypes4py。我们在本文中介绍的后者。我们的数据集具有超过1,000,000个类型的注释,并可以使用来自两个域Web开发和科学计算的数据的数据的不同域中的类型推理系统进行跨域评估。通过我们的实验,我们检测到数据集中的变化,并具有长尾巴分布,并具有许多稀有和未知的数据类型,从而大大降低了基于深度学习的推理系统的性能。在这种情况下,我们测试了无监督的域适应方法和微调以克服问题。此外,我们研究了量量表的单词的影响。
translated by 谷歌翻译